Метод отбора мета-признаков на основе фреймворка Auto-sklearn
Аннотация:
Предмет исследования. За последние годы задачу выбора и настройки алгоритмов машинного обучения все чаще решают с помощью автоматизированных фреймворков. Это мотивировано тем, что в работе с большим объемом данных классические методы не эффективны с точки зрения времени и качества. В работе рассмотрен фреймворк Auto-sklearn как одно из лучших решений для автоматизированного выбора и настройки алгоритмов машинного обучения. Исследована проблема решения Auto-sklearn 1.0, основанного на байесовской оптимизации и мета-обучении. Представлено решение данной проблемы. Метод. Предложен новый метод работы, основанный на оптимизации мета-базы. Сущность метода состоит в использовании алгоритма кластеризации BIRCH, для разделения наборов данных по различным группам. Критериями отбора являются мера силуэта и минимальное количество начальных конфигураций байесовской оптимизации. На следующем шаге использована модель случайного леса, которая обучена на наборе мета-признаков и полученных метках. При этом отобраны важные мета-признаки из всего набора. В итоге получен оптимальный набор мета-признаков, который использован для нахождения начальных конфигураций байесовской оптимизации. Основные результаты. Рассмотренный метод позволяет значительно ускорить поиск лучшего алгоритма машинного обучения для задач классификации. Проведены эксперименты с наборами данных из OpenM, выполнено сравнение Auto-sklearn 1.0, 2.0 и новой версии, которая использует предлагаемый метод. По результатам эксперимента и статистических тестов на T-критерий Уилкоксона новый метод превосходит по времени оригинальные версии и по качеству Auto-sklearn 1.0 и составляет конкуренцию с Auto-sklearn 2.0. Практическая значимость. В результате метод позволяет уменьшить время нахождения лучшего решения для задач машинного обучения. Оптимизация таких фреймворков целесообразна с точки зрения экономии времени и других ресурсов особенно в работе с большим объемом данных.
Ключевые слова:
Постоянный URL
Статьи в номере
- Особенности изображений воды, льда, снега, предметов и человека, формируемых гибридной телевизионной камерой в ближнем инфракрасном диапазоне
- Анализ периодически текстурированных кремниевых солнечных элементов с использованием технологии моделирования TCAD
- Сцинтилляционные датчики гамма-излучения на основе твердотельных фотоумножителей в составе беспроводных сетей промышленного интернета
- Повышение качества сетевого управления технологическими процессами
- Геометрический подход к решению задачи для машин Дубинса при формировании программных траекторий движения
- Дрейф двумерных вакансионных островков на поверхности Si(100) в условиях электромиграции
- Исследование фотокаталитических свойств композитов хитозан-TiO2 для разложения пирена
- Кинетика трансформации формы эшелонов атомных ступеней на поверхности Si(001) в условиях электромиграции
- Аномальный диффузионный профиль адатомов на экстремально широких террасах поверхности Si (111)
- Методика эксперимента для оценивания вероятности и опасности реализации сетевых атак в автоматизированных системах
- Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке
- Обобщенное программирование с комбинаторами и объектами
- Машинное обучение байесовской сети доверия как инструмента оценки интенсивности процесса по данным из социальной сети
- Модели реструктуризации программного обеспечения для языка объектно-ориентированного программирования с использованием алгоритма нечеткой кластеризации
- Концепция управления сетевой структурой интеллектуальных устройств в условиях цифровой трансформации энергетической отрасли
- Защита изображений лиц от распознавания в социальных сетях: способы решения и их перспективы
- Избыточные модели контролепригодных распределенных вычислительных систем реального времени
- Исследование влияния толщины базы на фотоэлектрические параметры кремниевых солнечных элементов с использованием новых TCAD алгоритмов
- Сбалансированный алгоритм гибридного метода крупных частиц и его проверка на некоторых тестовых задачах
- Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса
- Оценка кровоснабжения мозга через интактный череп с использованием визуализирующей фотоплетизмографии